【机器翻译】- 资源集合

codes [常用深度学习工具包]

公开数据集

开源社区、toolbox

汇总

  • Giza++ a training tool for IBM Model 1-5 (version for gcc-4) , and extension of Giza
  • MGiza++是在Giza++基础上扩充的一中多线程Giza++工具
  • Pgiza++是运行在分布式机器上的Giza++工具,使用了MapReduce技术的框架
  • Moses, a complete SMT system
  • UCAM-SMT, the Cambridge Statistical Machine Translation system
  • Phrasal, a toolkit for phrase-based SMT
  • cdec, a decoder for syntax-based SMT * Joshua, a decoder for syntax-based SMT
  • Jane, decoder for syntax-based SMT
  • Pharaoh a decoder for phrase-based SMT
  • Rewrite a decoder for IBM Model 4
  • BLEU scoring tool for machine translation evaluation
  • Egypt

    Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块:
    Whittle:语料库预处理模块;
    GIZA:用于从句子对齐的双语语料库中训练词语对齐;
    Cairo:词语对齐的可视化工具
    Decoder:解码器,即用来执行具体的翻译过程模块,这一模块没有开放源码。
  • SRILM

    SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。
  • 法老(Pharaoh)系统

    “法老”是较早公开的统计机器翻译系统,是由美国南加州大学信息科学实验室(Information Science Institute)的菲利普.科恩(Philipp Koehn)在2004年做博士论文期间编写的。可能由于较早的开源软件以“埃及(Egypt)”命名的缘故吧,这一系统也采用埃及的代表性事物“法老(Pharaoh)”命名。它是一个基于短语的(Phrased-based)统计机器翻译系统。。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型。既然是以短语作为翻译的基本单元,因此还需要获得关于短语翻译的知识。通过前面的介绍我们知道通过GIZA++训练可以得到单词对齐,根据单词对齐我们可以进行短语抽取。
  • Moses

    当今最有名的开源统计机器翻译系统。绝大多数的统计机器翻译技术在Moses中都有支持,比如基于短语的模型、基于句法的模型、各种解码方法、各种特征权重训练方法。概括一下:历史悠久(相对),技术全面,性能出色,论文的baseline。
    “摩西”是“法老”的升级版本,增加了许多功能。它是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。来自这8家单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。

    相比于“法老”,“摩西”主要有如下几个新的特性:
    a.使用要素翻译模型(Factored Translation Model)
    b.混合网络解码(Confusion Network Decoding)

    现在的Moses系统极其复杂,代码阅读起来是比较吃力的。如果是想学习统计机器翻译技术,我倒是觉得Joshua和NiuTrans是不错的选择。
  • SilkRoad 丝路

    中国第一个开源的统计机器翻译系统,“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会[14]上发布。“丝路”包括以下模块:语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。

    后期的更新和维护没有跟上,现在使用的似乎不是非常多。
  • NiuTrans

    NiuTrans的特点是国人开发,性能稳定,翻译模型支持全面,NiuTrans团队对系统进行不断升级。
    从全世界范围来看,现在机器翻译的开源工具不下30个。还有其它的系统,比如Akamon等,还有比较相关的如GIZA++,SRILM等,但是这里就不详细介绍了。

参考文献

模型 paper year + 会议 简介 创新点 缺陷 code
基于短语的翻译(PBMT) IBM 1989 模型超复杂
Sequence to Sequence Learning with Neural Networks NIPS 2014 tensorflow
Learning Phrase Representations using RNN Encoder-Decoder for SMT EMNLP2014
Effective Approaches to Attention-based Neural Machine Translation EMNLP 2015 基于高斯分布推导了Local Attention,比较了Global Align Attention和Local Align Attention, 和视频处理里面 Soft Attention 和 Hard Attention建立了联系。 code
Neural machine translation by jointly learning to align and translate ICLR 2015 RNN+attention 首次加入attention,ALIGN AND TRANSLATE
GNMT Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 2016 deep_LSTM, residual, attention, converage,subword
  • 宗成庆:《自然语言理解》
    -

必看